图 二 情报 三 作 


第 62 卷 第 8 期 2018 年 4 月 


基于 支持 向 量 机 的 大 学 生 网 络 信息 偶遇 影响 因素 研究 “ 


目 田 梅 ” 朱 学 芳 、 


新 乡 医学 院 管理 学 院 ,新 乡 医 学 院 卫 生 信息 资源 研究 中 心 


“南京 大 学 信息 管理 学 院 ”南京 210023 


新 乡 453003 


摘要 : [ 目的 /意义 ] 研究 网 络 环境 下 大 学 生 群 体 的 信息 偶遇 敏感 影响 因素 ,以 指导 大 学 生 和 群体 提 高 信息 偶 
遇 能 力 ,继而 提升 大 学 生 信 息 素 养 。[ 方法 “过程 ] 使 用 信息 增益 分 析 各 影响 因素 与 信息 偶遇 发 生 频 次 之 间 的 相 
关 性 ,构建 敏感 影响 因素 模型 ,并 进一步 利用 支持 向 量 机 (SVM ) 建立 信息 偶遇 频次 预测 模型 。[ 结果 /结论 ] 与 
发 生 信 息 偶遇 最 相关 的 10 个 影响 因素 分 布 于 信息 用 户 、 偶 遇 人 信息、 网 络 环境 .情境 因素 4 个 维度 ;模型 分 类 预 
测 精度 达 82.96 % ,说 明 SVM 对 预测 信息 偶遇 频次 有 良好 效果 。 
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人 言 息 行为 ”支持 向 量 机 


影响 因素 


信息 增益 


在 信息 查询 网络 浏览 及 信息 交互 的 过 程 中 ,我 们 
入 入 会 意外 收获 * 感 兴趣 "或 觉得 “有 用 "的 信息 ,这 种 
韭 自 的 性 偶然 获得 所 需 信 息 的 现象 就 是 信息 偶遇 。 昌 
然 俏 息 偶遇 是 “无 预期 "“ 意 外 的 ”的 收获 ,但 信息 偶 
遇 铸 仅 可 以 拓展 个 体 知识 面 ,还 可 以 通过 为 个 体 提供 
更 多 有 用 或 者 感 兴趣 的 信息 ,无 形 中 促成 新 的 解决 问 
题 才 路。 信息 偶遇 作为 一 种 被 动 信息 获取 的 方式 , 越 
来 越 多 地 受到 重视 ,许多 研究 已 经 表明 ,信息 偶遇 在 个 
体 实 作 生活 学习 与 科研 中 都 发 挥 着 重要 作用 。 在 当 
前 Web2.0 网 络 环境 下 , 随 着 移动 互联 网 的 广泛 应 用 ， 
信息 的 多 源 与 高 密度 以 及 用 户 频繁 使 用 网 络 及 行为 
“碎片 化 "等 特点 ,更易 激发 信息 偶遇 。 大 学 生 群 体 是 
使 用 移动 互联 网 及 各 种 新 媒体 软件 的 主要 人 群 之 一 ， 
对 于 大 学 生 群 体 来 说 ,信息 偶遇 对 于 获取 信息 、 创 新 闻 
题解 决 思路 .提高 自主 学 习 能 力 等 都 有 着 重要 意义 。 
然而 不 同 个 体 的 信息 偶遇 经 验 及 频次 存在 很 大 差别 ， 
如 何 根据 大 学 生 群体 的 信息 偶遇 特点 ,结合 敏感 影响 
因素 ,有 针对 性 地 研究 制定 相应 策略 ,从 而 激发 与 促进 
信息 偶遇 是 一 个 值得 思考 的 问题 。 

根据 文献 调研 ,国内 外 许多 学 者 围绕 信息 偶遇 的 


发 生 以 及 信息 偶遇 发 生 频 次 进行 了 相关 影响 因素 研 
究 , 从 个 人 因素 、 信 息 因 素 、 网 络 环境 等 角度 提出 了 研 
究 结 果 。 但 是 , 现 有 研究 中 针对 大 学 生 群 体 进行 信息 
偶遇 敏感 影响 因素 的 研究 较 少 ,大 多 利用 访谈 法 、 问 卷 
法 ,关键 事件 法 .实验 法 等 采集 数据 并 构建 影响 因素 模 
型 , 且 只 是 分 析 各 因素 的 相关 性 ,缺乏 相关 的 定量 分 析 
和 研究 ,同时 也 缺乏 对 信息 偶遇 实际 应 用 的 研究 。 而 
从 应 用 的 角度 出 发 ,如 何 有 效 利用 信息 偶遇 的 敏感 因 
素 构 建 相 应 的 决策 模型 .从 而 实现 对 新 的 未 知行 为 数 
据 的 预测 分 析 ,是 信息 偶遇 实用 化 的 关键 。 根 据 文献 
调研 ,目前 尚未 检索 到 针对 信息 偶遇 频次 进行 定量 分 
析 的 有 关 文 献 ,同时 ,关于 如 何 将 诸多 信息 偶遇 影响 因 
素 应 用 于 未 知行 为 数据 的 预测 也 鲜 有 研究 。 

作为 人 工 智 能 的 重要 分 支 , 机 器 学 习 是 近年 来 受 
到 广泛 关注 的 数据 分 析 技 术 , 目前 被 广泛 应 用 于 自然 
语言 处 理 .计算 机 视觉 等 领域 。 机 器 学 习 强 调 从 已 有 
数据 中 提炼 经 验 和 领域 知识 ,并 据 此 改善 系统 自身 性 
能 ,最 终 应 用 于 新 的 未 知 数据 。 奉 能 将 实证 数据 与 机 
器 学 习 相 结合 ,从 实际 采集 的 数据 出 发 ,构建 信息 偶遇 
行为 的 预测 模型 , 则 可 以 有 效 促进 信息 偶遇 研究 的 实 
际 应 用 效果 ,并 在 拓展 信息 行为 研究 方法 方面 做 出 新 
的 尝试 。 基 于 此 ,本 研究 将 针对 大 学 生 群 体 研究 网 络 
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环境 下 的 信息 偶遇 行为 预测 问题 ,引入 机 器 学 习 中 的 
代表 性 算法 支持 向 量 机 (support vector machine， 
SVM) ,首先 利用 信息 增益 定量 分 析 相 应 的 敏感 影响 因 
素 ,在 此 基础 上 ,进一步 构建 针对 信息 偶遇 频次 的 SVM 
分 类 预测 模型 ,并 通过 采集 到 的 大 学 生 和 群体 信息 偶遇 
调研 数据 ,检验 该 模型 的 有 效 性 和 合理 性 。 


2 研究 回顾 与 问题 提出 


在 过 去 的 20 余年 中 ,诸多 学 者 围绕 信息 偶遇 概 
念 、 过 程 模 型 及 影响 因素 进行 了 研究 。 
2.1 信息 偶遇 的 概念 

S. Erdelez 于 1995 年 在 其 博士 论文 里 首次 正式 提 
出 了 信息 偶遇 (Information Encountering ) 一 词 ,并 把 它 
乱 尖 为 “在 未 预期 的 情境 中 ,个 体 意 外 获得 感 兴趣 或 可 
以 伺 决 问题 的 信息 的 现象 ”"" 此 后 ,许多 学 者 提出 了 
根治 概念 及 定义 ,例如 :1996 年 ,K，Williamson 等 中 提 
“incidental information acquisition” 的 概念 ,将 其 定 
e 洒 "“ 在 从 事 其 它 活动 中 ,出 乎 意料 地 获得 了 信息 ”; 
党 着 J Heinstrom 中 在 此 基础 上 进一步 将 其 定义 为 
“ 逢 没 有 专门 查找 的 情况 下 ,获得 有 用 或 有 趣 的 信 
2000 年 S，Erdelez 等 六 提出 “information source 
entering "的 概念 ,认为 在 使 用 网 络 查找 信息 时 , 许 
少 裔 户 在 偶遇 一 个 不 了 解 但 看 起 来 有 用 的 信息 资源 
时 2 有 一 种 机 会 性 获取 信息 的 期 望 ;2000 年 ,E.G. 
Toi 中 对 浏览 情境 下 的 信息 偶遇 进行 了 探讨 与 讨论 ， 
认为 在 不 同 主题 间 进 行 信息 浏览 的 过 程 中 ,用 户 会 专 
注入 他们 意外 发 现 的 有 趣 及 有 用 的 信息 ,并 提出 了 
SSndipitous information retrieval ”的 概念 。 虽 然 不 同 
学 者 的 定义 及 阐述 存在 差异 ,但 都 在 表述 中 强调 了 信 
息 偶 遇 过 程 中 用 户 的 “ 低 参 与 度 ” 与 “ 低 预期 "两 个 本 
质 特征 以 及 偶遇 信息 与 用 户 兴趣 或 问题 相关 的 突出 特 
点 "。 结合 国内 外 学 者 的 相关 研究 , 本文 将 信息 偶 
遇 界 定 为 "是 指 一 种 信息 获取 行为 , 特 指 利用 网 络 终端 
进行 各 种 信息 活动 时 ,用 户 在 无 目的 、 低 预期 的 情况 下 
意外 获得 了 自己 感 兴趣 的 信息 或 是 觉得 有 用 的 信息 ”。 
2.2 信息 偶遇 过 程 模 型 相关 研究 

M. P. ECunha 从 组 织 管理 角度 ,提出 了 一 个 
有 助 于 理解 信息 偶遇 过 程 的 框架 模型 ,模型 包括 “促成 
条 件 ( precipitating conditions )”“ 搜 寻 预 设 问 题 A 
(search for problem A) ”双向 联想 (bisociation ) “无 预 
期 获得 解决 问题 B 的 答案 (unexpected solution for prob- 
lem B)”4 个 部 分 ;L，MecCay -Peet 等 通过 对 10 位 历 
史学 者 有 关 “ 信 息 搜寻 过 程 ”的 访谈 资料 进行 分 析 , 在 
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M. P. E. Cunha 模型 的 基础 上 提出 了 知识 工作 中 的 信 
息 偶 遇 发 生 过 程 模型 ;V. L.， Rubin 等 对 日 常生 活 
情境 的 信息 偶遇 进行 了 研究 ,阐述 了 信息 偶遇 发 生 包 
括 的 所 有 要 素 方面 ,并 在 此 基础 上 ,构建 了 信息 偶遇 过 
程 要 素 模 型 。 以 上 模型 研究 多 侧重 于 信息 偶遇 过 程 中 
的 概念 特征 要 素 , 也 有 不 少 学 者 从 结构 化 流程 的 角度 
对 信息 偶遇 过 程 模型 进行 了 探讨 。S. Erdelez 提出 了 
言 息 搜索 情境 下 信息 偶遇 发 生 过 程 模 型 ,包括 注意 、 停 
驻 检验 . 摘 取 和 返回 5 个 功能 要 素 "'" ; 票 村 伦 久 "对 
此 模型 进行 了 修订 ,进一步 强调 了 偶遇 信息 的 利用 环 
节 ;J. Lawley 和 了 .TOMPKINS ”提出 了 基于 个 体感 知 
的 信息 偶遇 过 程 模型 ,将 信息 偶遇 的 过 程 分 为 6 个 阶 
段 ;S，Makri 等 ”基于 实证 基础 ,提出 了 信息 偶遇 过 程 
模型 ,强调 模型 的 核心 环节 是 建立 “新 的 某 种 意识 的 连 
接 ”。 
2.3 ”信息 偶遇 影响 因素 研究 

S. Erdelezt5] Kk. Williamson'”] 的 研究 归纳 出 了 信 
息 偶 遇 行为 的 3 个 基本 要 素 : 信 息 用 户 .信息 环境 与 偶 
遇 信 息 。 目 前 有 关 信 息 偶遇 影响 因素 的 研究 多 围绕 这 
3 个 要 素 展开 。 
2.3.1 信息 用 户 角 度 ”信息 用 户 的 个 人 特征 对 于 信 
息 偶 遇 的 影响 因素 研究 包括 个 人 特质 .信息 需求 动机 、 
言 息 素养 .信息 偶遇 经 历 等 方面 。J， Heinstrim!' 认为 
户 的 情绪 、 个 性 以 及 检索 风格 是 信息 偶遇 的 重要 影 
响 因素 ,好 奇 心 强 、 外向、 好 学 的 用 户 更 易 发 生 信 息 偶 
遇 。 台 湾 学 者 蔡 怡 欣 等 '” 的 研究 表明 ,好 奇 心 与 求知 
欲 往往 激发 信息 偶遇 ;个 人 兴趣 和 特定 的 信息 需求 动 
机 利于 激发 信息 偶遇 ;经 常 使 用 网 络 ,可 以 轻松 处 理 信 
息 的 相关 情境 ,对 信息 的 敏感 度 相对 较 高 的 用 户 易于 
发 生 信 息 偶遇 。 田 立 忠 与 俞 匠 网 ”认为 ,会 把 信息 困 
惑 放 在 心里 对 检索 结果 不 容易 满足 .喜欢 检索 \ 有 广 
泛 浏览 习惯 和 猎奇 心理 的 人 ,更 容易 有 偶遇 的 体验 ;而 
目的 性 和 策略 性 很 强 的 人 , 则 不 太 容 易 有 偶遇 经 历 。 
郭 海 霞 '” 认为 ,对 信息 需求 具有 内 在 动机 的 个 体 较 具 
有 外 在 动机 的 个 体 容易 获得 信息 偶遇 经 验 。 表 红 与 王 
志 脑 ”在 对 数字 图 书馆 利用 中 信息 偶遇 现象 的 研究 
发 现 ,个 人 因素 对 信息 偶遇 的 影响 大 于 信息 因素 ,信息 
偶遇 的 主观 性 强 , 信 息 用 户 的 信息 素养 是 获取 更 多 偶 
遇 信 息 的 促 发 剂 。S.， Erdelez 将 信息 偶遇 者 分 为 非 偶 
遇 者 .巧合 偶遇 者 .偶遇 者 与 超级 偶遇 者 4 种 类 型 。 
其 中 ,超级 偶遇 者 经 历 信息 偶遇 的 频率 非常 高 ,把 信息 
偶遇 当 作 信 息 搜寻 的 一 种 方式 ,$. Erdelez 认为 已 有 的 
信息 偶遇 经 历 是 影响 信息 偶遇 发 生 的 重要 因素 。 
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2.3.2 息 环境 角度 ”信息 环境 可 以 理解 为 信息 偶遇 
发 生 的 不 同情 境 。 网 络 浏览 .信息 检索 .信息 交互 等 都 
是 常见 的 情境 。S， Erdelez” 研究 表明 在 网 络 浏览 状 
态 下 ,学 者 及 科研 人 员 易 于 发 生 信息 偶遇 。K. Wil- 
liamson' ”| 认为 ,在 与 家 人 、 朋 友 的 信息 交互 中 ,用 户 常 
会 经 历 信 息 偶遇 。 潘 曙光 的 研究 认为 网 络 信息 检索 


根据 以 上 分 析 , 现 有 研究 成 果 多 为 对 信息 偶遇 理 
论 基 础 的 研究 ,集中 在 信息 偶遇 在 信息 行为 框架 中 的 
定位 和 关系 分 析 ,缺乏 对 大 学 生 群 体 信 息 偶 遇 行为 的 
实证 研究 。 其 中 ,尽管 有 研究 ”分 析 了 信息 偶遇 频次 
的 重要 意义 ,也 未 对 其 进行 针对 性 的 定量 分 析 。 基 于 
现 有 成 果 ,结合 本 研究 的 对 象 与 目标 , 提出 研究 问题 : 


中 ,用 户 的 前 景 问题 与 背景 问题 可 以 互 换 ,从 而 激发 信 
息 偶遇 ;网 络 浏览 中 对 内 容 的 “ 低 熟 悉 度 “ 无 目标 浏 
览 "等 因素 对 信息 偶遇 的 发 生 有 着 重要 的 影响 5 。 田 
立 忠 与 俞 闫 风 " 的 研究 发 现在 时 间 压 力 小 .目的 性 弱 
上 且 有 系统 反馈 的 浏览 情境 中 更 易 发 生 信息 偶遇 。 郭 海 
起 "认为 ,在 个 体 没有 时 间 压 力 下 ,信息 偶遇 经 验 便 
会 越 来 越 多 , 且 无 法 停止 地 持续 出 现 。 杜 雪 与 刘 春 
项 久 的 研究 认为 ,正在 工作 状态 下 的 用 户 更 易 发 生 信 
息 便衣 。 
2@\B。 偶遇 信息 角度 。S，Erdelez "将 偶遇 信息 分 
类 , 即 问题 相关 与 兴趣 相关 ,问题 相关 包括 了 现 
= 入 去 及 未 来 的 信息 需求 。 与 过 去 问题 相关 的 偶遇 
信 万 ,虽然 是 用 户 不 再 需要 的 信息 ,不 能 产生 直接 的 价 


影响 大 学 生 网 络 信息 偶遇 的 影响 因素 有 哪些 ? @ 诸 

影响 因素 中 ,哪些 因素 是 影响 信息 偶遇 的 敏感 因素 ? 
@@ 如 何 构 建 的 信息 偶遇 敏感 影响 因素 模型 ,上 且 预 测 效 
果 如 何 ? 


3 ”研究 设计 与 数据 采集 
3.1 研究 方法 与 思路 

本 研究 的 目标 是 从 诸多 信息 偶遇 影响 因素 中 , 找 
出 敏感 影响 因素 ,而 关键 在 于 如 何 从 数据 角度 出 发 , 定 
量 地 分 析 信 息 偶遇 敏感 影响 因素 ,并 构建 分 类 预测 模 


型 。 信 息 增益 是 度量 特征 重要 程度 的 有 效 方法 ,可 表 
示 为 一 个 模型 在 有 和 没有 一 个 特征 时 的 信息 量 的 差 
值 , 该 值 越 大 ,意味 着 该 特征 能 够 为 预测 模型 带 来 的 信 


依 得 却 能 引起 用 户 对 信息 源 的 兴趣 ,进而 指导 用 户 未 
言 息 行为 ;与 现在 ,将 来 问题 相关 的 偶遇 信息 则 节 
ED 用 户 获 取信 息 的 时 间 、 精 力 "。V，L，Rubin 等 
搂 册 用户 从 信息 偶遇 中 所 获得 的 利益 的 类 型 ,将 用 户 
的 信息 偶遇 结果 从 “非常 抽象 的 "到 “非常 具体 的 ”分 

类 ;其 中 第 二 类 就 描述 了 用 户 因为 利用 与 过 去 . 现 
在 问题 相关 的 偶遇 信息 而 获得 的 利益 , 即 获得 关于 先 
前 闻 题 或 者 所 关心 的 事情 的 解决 方案 “”。 对 于 与 问 
题 相关 的 偶遇 信息 ,用 户 在 偶遇 发 生 当 时 就 明确 知道 
其 具体 用 途 。 和 与 问题 相关 的 偶遇 信息 不 同 ,与 兴趣 
相关 的 偶遇 信息 多 是 一 些 令 人 感到 府 异 或 惊讶 的 消 
息 .信息 碎片 或 者 可 能 有 用 的 信息 , 仅 供用 户 娱乐 且 
没有 特定 用 途 , 但 是 它 能 开拓 用 户 的 视野 .增加 用 户 的 
知识 储备 ,对 用 户 将 来 解决 问题 可 能 会 有 帮助 ,同时 它 
也 能 帮助 用 户 发 现 问题 2 。 蔡 怡 欣 等 "认为 偶遇 信 
息 可 以 通过 自己 获得 ,也 可 以 借 由 他 人 获得 (直接 \ 间 


息 量 越 高 ,也 就 意味 着 该 特征 越 重要 、 区 分 度 最 明显 。 
与 开 方 检 验 等 方法 相 比 ,信息 增益 可 从 信息 论 的 角度 
全 面 地 给 出 特征 对 于 预测 模型 的 重要 程度 ,因此 ,可 有 
效用 于 特征 选择 、 属 性 约 简 '”。SVM 是 目前 具有 
代表 性 的 机 器 学 习 方法 。 该 方法 通过 需求 结构 风险 最 
小 化 ,从 而 实现 了 在 有 限 样本 上 良好 的 泛 化 能 力 ;通过 
引入 核 函 数 ,SVM 提供 了 非 线性 问题 的 有 效 解决 方 
案 “。 这 与 本 研究 的 小 样本 量 以 及 信息 偶遇 行为 在 
数据 分 析 层面 表现 出 的 非 线 性 和 交叉 性 相 契 合 ,因此 ， 
本 研究 引入 SVM 和 信息 增益 作为 主要 数据 分 析 工 具 ， 
其 中 ,信息 增益 用 来 定量 分 析 各 影响 因素 与 信息 偶遇 
发 生 频 次 的 相关 关系 ,而 SVM 用 来 建立 有 限 样本 下 
的 信息 偶遇 频次 预测 模型 。 具 体 研 究 方法 与 思路 如 图 
1 所 示 ,可 归纳 为 以 下 步骤 : 

(1) 通 过 对 现 有 相关 研究 进行 整理 ,荟萃 分 析 整 
合 相关 研究 结论 ,从 而 对 现 有 研究 中 的 信息 偶遇 影响 


接 或 公开 分 享 ) ;偶遇 信息 来 源 多 种 多 样 ,包括 互联 网 
各 类 网 页 .BBS 电子 邮件 .搜索 引擎 以 及 各 种 网 络 社 
交工 具 与 平台 等 。 田 立 忠 与 俞 诡 赂 "认为 信息 的 外 
形 与 位 置 突出 、 来 源 质量 高 .命名 与 内 容 引 起 用 户 兴 
趣 、 易 于 获得 等 信息 特点 可 以 提高 信息 偶遇 的 概率 。 
郭 海 霞 ”认为 ,个 人 偶遇 的 信息 主要 是 为 满足 个 人 未 
来 可 能 会 有 的 信息 需求 做 准备 ,次 要 是 满足 个 人 对 于 
广泛 事物 的 好 奇 心 。 
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因素 进行 收集 、 整 理 ,并 分 析 影 响 因 素 指标 ,进行 归 类 、 
区 分 维度 ; 

(2) 参 考 现 有 研究 中 关于 信息 偶遇 影响 因素 的 讨 
论 结果 ,设计 访谈 提纲 ,通过 访谈 进一步 获取 更 全 面 的 
影响 因素 指标 ; 

(3) 依 据 通过 文献 与 访谈 收集 而 来 的 影响 因素 整 
合 结果 设计 发放 调 查 问卷 ; 

(4) 用 信息 增益 分 析 各 影响 因素 与 信息 偶遇 发 生 
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信息 偶遇 
影响 因素 | 
调查 -~ 
问卷 饱和 度 检测 
数据 
信息 
增益 
敏感 因素 模型 
里 
模型 精度 预测 


图 1 研究 方法 与 思路 


频次 之 间 的 相关 性 ,确定 敏感 因素 ,构建 敏感 影响 因素 
模型 

写 (5) 利 用 SVM 对 测试 集 数据 的 信息 偶遇 频次 特点 
进 往 预 测 , 并 对 敏感 影响 因素 模型 进行 误差 预测 与 分 
本 用 
3 数据 采集 

[CC 通过 文献 调研 和 访谈 法 获取 有 关 信息 偶遇 影 响 因 
大 3 养 进行 统计 、 整 理 , 归 类 ,最 终 形成 了 “信息 用 户 ” 
个 信息 “信息 环境 “情境 "4 个 维度 ,涵盖 “基本 
侵 岛 “人 格 特质 “学 习 动 机 "等 12 个 方面 , 共 32 个 
其 眉 影 响 因素 变量 。 
3.231 信息 偶遇 影响 因素 变量 

S<(1 ) 信 息 用 户 维度 变量 。 包 括 信息 偶遇 用 户 个 人 
的 旺 本 信息 ( Aa 性别.Ab 专业 、Ac 年 级 ) 、 人 格 特质 
(CA 性格) ,学习 动机 (Ae 好 奇 心 .Af 求知 欲 ) .信息 素 
养 信息 意 识 与 信息 能 力 :Ba 信息 需求 表达 、Bb 信息 
源 评估 能 力 .Bc 常用 网 络 工具 的 使 用 能 力 .Bd 熟练 使 
用 搜索 引擎 ; 检索 风格 :C 快速 检索 风格 .D 广泛 浏览 
型 检索 风格 卫 深 度 挖掘 型 检索 风格 ) .个 人 经 历 (X 信 
息 偶 遇 经 历 ) 等 5 个 方面 的 14 个 具体 变量 。 

(2) 偶遇 信息 维度 变量 。 包 括 偶遇 信息 的 信息 执 
度 (F 信息 人 气 、G 信息 新 颖 、H 信息 标题 感 兴趣 ) 、 信 
息 质 量 (I 信 息 质量 权威 ,科学 ) .信息 内 容 (J 偶遇 信息 
非常 有 用 .偶遇 信息 与 目前 问题 相关 、L 偶遇 信息 与 
过 去 问题 相关 、M 偶遇 信息 与 将 来 问题 相关 `N 偶遇 信 
息 是 兴趣 相关 ) 等 3 个 方面 的 9 个 具体 变量 。 

(3 ) 情 境 维度 变量 。 包 括 信息 偶遇 发 生 时 的 信息 
行为 情境 (0 信息 浏览 .P 信息 搜索 .Q 信息 交流 ) , 任 
务 情境 (R 任务 情境 .S 娱乐 休闲 、V 时 间 充 足 ) 等 2 个 
方面 的 6 个 具体 变量 。 

(4) 信息 环境 维度 变量 。 包 括 信息 偶遇 发 生 的 网 


络 环境 (T 手 机 上 网 U 电脑 上 网 ) 系统 设计 (W 系统 
反馈 ) 等 2 个 方面 的 3 个 具体 变量 。 

3.2.2 问卷 发 放 与 回收 ”针对 上 述 32 个 具体 影响 因 
素 变量 与 最 终 预 测 指标 ”信息 偶遇 频次 "设计 调查 问 
卷 ,共计 33 个 问题 。 经 问卷 星 网 站 发 布 问卷 ,调查 对 
象 涉 及 新 乡 医学 院 医学 ,管理 学 ,心理 学 3 个 专业 5 个 
年 级 的 学 生 , 共 收回 有 效 问卷 194 份 。 通 过 SPSS22.0 
对 问卷 的 信和 度 进 行 分 析 , Cronbach’s a( 克 关 巴 哈 ) 系 
数 为 0.846, 大 于 0.8, 因 此 本 问卷 的 信和 度 可 以 接受 。 
问卷 选项 采用 李 克 特 5 点 量 表 , 调 查 对 象 根据 自身 对 
题 项 陈述 的 赞同 程度 选择 “非常 不 同意 ”比较 不 同 
意 “ 一 般 “ 比 较 同 意 “ 非 常 同 意 ”, 分 别 赋予 对 应 的 
权 值 为 1.2.3,4.5。 


4 数据 整理 与 分 析 


将 信息 用 户 、 偶 遇 信息 、 信 息 环境 及 情境 4 个 维度 
的 32 个 具体 因素 作为 自 变量 与 信息 偶遇 频次 ( 因 变 
量 ) 进 行 信 息 增 益 计 算 并 分 析 其 相关 性 ,并 构建 信息 偶 
遇 影响 因素 模型 。 根 据 预测 目标 * 信 息 偶遇 频次 " 值 
的 大 小 划分 为 两 个 组 ,问卷 中 选择 "比较 同意 “非常 
同意 ”者 , 即 赋值 为 4.5 者 为 一 组 ,表示 信息 偶遇 频次 
较 高 ;选择 “非常 不 同意 “比较 不 同意 “一般” 者 , 妈 
赋值 为 1.2.3 者 为 另 一 组 ,表示 信息 偶遇 频次 较 低 。 
据 此 ,构建 样本 194 个 ,输入 样本 维 数 为 32 ,输出 样本 
维 数 为 2( 频次 高 和 频次 低 ) 。 首 先 对 上 述 各 个 影响 因 
素 ,计算 其 与 “信息 偶遇 频次 "项 的 信息 增益 ,根据 增 
益 值 大 小 挑选 敏感 因素 ,进而 引入 SVM 模型 ,构建 信 
息 偶遇 预测 模型 ,实现 对 信息 偶遇 发 生 频 次 的 预测 与 
评估 。 
4.1 计算 信息 增益 

在 信息 论 与 概率 统计 中 , 烂 是 表示 随机 变量 的 不 
确定 性 的 度量 ,而 信息 增益 则 可 描述 具体 影响 因素 带 
给 这 些 随机 变量 的 信息 量 。 根 据 定义 ,首先 计算 信息 
偶遇 频次 的 恼 , 见 公 式 (1) : 

H(X) = - Spilogp, 公式 (1) 

其 中 p, 表示 第 i 个 随机 变量 出 现 的 几率 ,X 为 具 
体 影响 因素 。 该 恼 值 越 大 ,表明 信息 偶遇 频次 的 不 确 
定性 越 大 。 其 次 ,计算 在 已 知 信息 偶遇 具体 影响 因素 
( 即 并 的 条 件 下 ,信息 偶遇 频次 ( 即 六 的 条 件 箭 , 见 公 
式 (2) 


H(YIX) 有 P(X=%,)H(YIX=x,) 公式 (2) 
最 后 ,将 信息 偶遇 频次 的 炉 ( 公 式 (1) ) 减 去 信息 
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偶遇 频次 的 条 件 炉 ( 公 式 (2)), 即 可 得 到 具体 影响 因 
素 的 信息 增益 , 见 公式 (3): 
g(Y,X) =H(Y) - H(YIX) 公式 (3) 

根据 公式 (3) ,可 计算 得 到 每 个 特征 的 信息 增益 ， 
根据 其 值 大 小 ,选择 信息 增益 最 大 的 特征 为 最 优 特 
征 ” 。 
4.2 支持 向 量 机 建 模 

支持 向 量 机 是 一 种 适合 于 小 样本 的 二 分 类 算法 。 
支持 向 量 机 建立 在 统计 学 习 理 论 基础 之 上 ,通过 寻求 
结构 风险 最 小 化 ,可 以 在 有 限 样 本 上 得 到 良好 的 推广 
能 力 ,避免 过 学 习 现 象 ;通过 引入 核 函 数 , 有 效 解决 了 


f(s)=sign(wx+h) 


> < 
多 所 


CCG 图 2 中 ,以 两 种 不 同形 状 的 二 维 样本 点 代表 不 同 
信息 偶遇 频次 ,作为 两 个 不 同 的 类 别 。 从 图 2(a) 可 以 
看 遇 , 可 以 存在 多 个 分 类 模型 将 两 类 数据 完全 分 开 ,但 
哪 名 个 模型 为 最 优 模 型 却 无 从 判断 ;图 2(b) 中 , 左 侧 星 
型 点 和 右 侧 圆 点 分 别 代表 代表 两 类 样本 ,类 中 间 的 实 线 
为 分 类 线 ,两 侧 虚线 分 别 为 穿 过 距离 分 类 线 最 近 的 样本 
的 平行 线 ,它们 之 间 的 距离 即 为 分 类 间隔 。 根 据 SVM 
基本 原理 ,能 正确 区 分 两 类 样本 、 且 分 类 间隔 最 大 的 分 
类 线 , 即 为 最 优 分 类 模型 ,虚线 上 的 样本 点 称 作 支 持 向 
量 。 根 据 这 一 原则 ,通过 构建 最 小 化 模型 ,并 引入 拉 格 
朗 日 乘 子 法 进行 求解 ,最 终 可 以 得 到 通用 的 SVM 分 类 
模型 (z) =sign( 2ayK(z,z) +5) ,其 中 ,a 为 最 优 拉 


格 朗 日 于 子 ,K(， ) 为 处 理 非 线性 分 类 用 的 核 函数 ,。 为 
偏 置 量 。SVM 具体 理论 细节 可 参考 文献 [28 ] 。 


5 ”结果 与 分 析 


5.1 因 变量 与 各 自 变量 相关 性 结果 
以 其 信息 增益 值 的 大 小 进行 整理 排序 ,结果 如 表 
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高 维 问题 中 的 “ 维 数 灾难 ”问题 ,因此 在 模式 识别 故 
障 诊断 等 领域 得 到 广泛 应 用 。 
支持 向 量 机 的 基本 思想 是 在 两 类 数据 之 间 , 寻 找 
个 超 平面 ,使 得 正 负 类 之 间 的 分 类 间隔 最 大 。 以 本 
研究 为 例 ,在 "信息 偶遇 频次 低 ” 和 ”信息 偶遇 频次 高 ” 
的 数据 之 间 存 在 多 个 分 类 模型 ,能 使 得 分 类 间隔 最 大 
的 SVM 模型 为 最 终 的 信息 偶遇 频次 预测 模型 ,如 图 2 
所 示 。 需 要 说 明 的 是 ,为 了 绘图 简便 ,图 2 只 以 线性 可 
分 问题 作为 示例 , 非 线 性 分 类 和 线性 不 可 分 问题 可 以 
通过 SVM 的 核 函 数 和 引入 惩罚 函数 进行 扩展 。 


< 间隔 
次 
/ / 

pe 


入 

入 

@ 
@ 


人 


图 2 信息 偶遇 频次 预测 模型 示意 
注 :(a) 为 不 同 的 分 类 模型 ,(b) 为 SVM 分 类 模型 


1 所 示 : 
表 1 信息 偶遇 频次 与 各 自 变 量 的 信息 增益 
自 变量 信息 增益 值 (1) 
0 信息 浏览 0.241 8 
P 信息 搜索 0. 162 4 
T 手 机 上 网 0.1416 
X 信息 偶遇 经 历 0.122 3 
N 偶遇 信息 是 兴趣 相关 0.113 0 
信息 与 过 去 问题 相关 0.111 8 
V 时 间 充 足 0.1100 
Bd 熟练 使 用 搜索 引擎 0.103 8 
J 偶遇 信息 非常 有 用 0.093 4 
M 信息 与 将 来 问题 相关 0.093 0 
S 娱乐 休闲 0.091 3 
U 电脑 上 网 0.090 5 
Q 信息 交流 0.089 2 
Ae 好 奇 心 0.088 5 
EE 深度 挖掘 型 检索 风格 0.086 9 
Bb 信息 源 评估 能 力 0.083 8 
R 任务 情境 0.081 1 
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( 续 表 1) 
自 变量 信息 增益 值 (1) 
W 系统 反馈 0.076 8 
D 广泛 浏览 型 检索 风格 0.0766 
C 快速 检索 风格 0.074 5 
Ad 性 格 0.0619 
K 信息 与 目前 问题 相关 0.0577 
Be 常用 网 络 工具 的 使 用 0.0519 
Af 求知 欲 0.0516 
G 信息 新 颖 0.0417 
I 信息 质量 高 0.0417 
Ba 信息 需求 表达 0.035 9 
HH 信息 标题 感 兴趣 0.030 4 
了 信息 人 气 0.027 7 
Ac 年 级 0.029 9 


一 
局 为 直观 描述 ,图 3 给 出 了 各 属性 的 信息 增益 排序 。 


ON 信息 增益 排序 
0.25| EE 


2308.003 


20 


人 
属性 标号 


3 各 属性 的 信息 增益 排序 
注 : 其 中 横 轴 属性 标号 对 应 于 表 2 
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根据 公式 (4) 可 知 信息 增益 值 1 应 大 于 等 于 零 , 且 
1 越 大 ,表明 相关 性 越 大 。 由 表 2 和 图 3 可 知 与 信息 偶 
遇 频 次 最 相关 的 前 10 个 自 变量 分 别 是 :0 信息 浏览 了 
信息 搜索 了 手机 上 网 X 信息 偶遇 经 历 \N 偶遇 信息 是 
兴趣 相关 、L 信息 与 过 去 问题 相关 、V 时 间 充 足 、Bd 熟 
练 使 用 搜索 引擎 J 偶遇 信息 非常 有 用 、M 信息 与 将 来 
问题 相关 。 
5.2 ”模型 构建 与 精度 分 析 
5.2.1 信息 偶遇 敏感 影响 因素 模型 构建 ”根据 上 述 
结果 ,建立 信息 偶遇 敏感 影响 因素 模型 见 图 4。 
5.2.2 模型 精度 分 析 ”基于 获得 的 信息 偶遇 敏感 影 
响 因 素 ,本 研究 使 用 支持 向 量 机 作为 分 类 器 ,预测 信息 
偶遇 频次 。 首 先 将 获得 的 194 个 问卷 分 别提 取 前 10 
个 敏感 因素 ,并 按照 对 应 的 信息 偶遇 频次 高 低 ,构建 样 


手机 上 网 


兴趣 相关 信息 偶遇 


信息 有 gs 经 历 
过 去 问题 相关 热 练 使 
将 来 问题 相关 搜索 引 整 


信息 浏览 
信息 搜索 
时 间 充 足 


4 信息 偶遇 敏感 影响 因素 模型 


本 集 ;其 次 ,采用 随机 挑选 的 135 个 样本 为 训练 集 , 放 
入 支持 向 量 机 进行 训练 ,构建 一 个 信息 偶遇 频次 预测 
模型 ;最 后 ,采用 其 余 59 个 样本 为 测试 集 , 放 人 到 该 预 
测 模型 中 进行 预测 ,评价 模型 预测 效果 。 实 验 中 ,按照 
所 有 样本 进行 归 一 化 预 处 理 ,SVM 采用 RBF 核 函 数 
(x,y) =exp( -0o 上 xy ,其 中 0o 为 核 参 数 。SVM 
工具 箱 采 用 LibSVM ,使 用 网 格 搜 索 与 5 折 交 又 验证 的 
方式 进行 模型 选择 ,确定 正则 化 参数 C 和 核 参数 er 的 
最 优 组 合 ,参数 寻 优 过 程 如 图 5 所 示 。 预 测 效果 评价 
采用 测试 集 上 的 分 类 正确 率 , 即 测试 集中 预测 正确 的 
样本 数目 在 整个 测试 集中 的 比例 。 


随 参 数 选 择 的 预测 精度 变化 趋势 
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分 类 正确 率 (9%) 


60， 


Da 6 We 0 MT 
参数 选择 次 数 


5 参数 寻 优 过 程 


图 5 中 , 横 坐 标 为 参数 组 合 序号 ,该 组 合 由 
LibSVM 自动 搜索 得 到 ,对 应 的 分 类 正确 率 值 见 表 2。 

表 3 显示 ,通过 SVM 的 参数 优化 选择 ,最 终 在 测 
试 数据 上 的 分 类 正确 率 为 82.96% ,取得 了 较 好 的 预 
测 效 果 ,这 表明 SVM 适用 于 用 户 信息 偶遇 行为 预测 
与 分 析 研 究 ,同时 ,也 证 明了 利用 图 2 所 找到 的 10 个 
敏感 因素 的 有 效 性 ,间接 说 明了 本 文 所 提 方 法 的 合 
理性 。 但 是 ,从 表 3 也 可 看 出 ,该 模型 并 未 取得 非常 
高 的 分 类 预测 精度 ,分 析 原 因 , 可 能 与 调研 对 象 局 限 
于 一 个 高 校 ,行为 特点 与 信息 素养 存在 同 质 性 以 及 
个 别 问卷 题目 设计 相似 度 较 高 等 造成 数据 区 分 度 不 
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表 2 SVM 模型 选择 参数 组 合 


序号 1 2 3 4 3 6 到 8 9 10 11 
C 0. 125 0. 125 0.125 0.25 0.25 0.25 0.5 0.5 1 2 2 
0.062 5 0. 125 0.25 0.062 5 0. 125 0.25 0.062 5 0.25 0.0625 0.0625 1 
分 类 正确 率 (% ) 61.48 70.37 73.33 74.81 78.52 78.52 79.26 80.74 80.74 80.74 82. 96 
5.3 结果 分 析 机 上 网 ”与 发 生 信息 偶遇 更 为 相关 ,并 且 排 在 第 3 位 (I 


由 上 述 结果 可 以 看 到 ,本 文 从 多 途径 尽 可 能 多 地 
提炼 信息 偶遇 影响 因素 指标 ,并 从 构建 信息 偶遇 频次 
预测 模型 的 角度 找到 10 个 最 为 相关 的 敏感 因素 。 从 
图 2 可 以 看 出 ,这 10 个 因素 与 已 有 研究 结果 基本 保持 
一 致 ,分 布 于 信息 用 户 、 偶 遇 信息 网络 环境 情境 因素 
4 个 维度 。 这 不 仅 从 田 一 个 角度 印证 了 前 期 研究 ,也 
为 有 效 获取 敏感 影响 因素 提供 了 新 的 应 用 方法 。 
538=1 情境 因素 维度 在 10 个 最 相关 因素 中 ,情境 


=0.141 6)。 移动 互联 网 环境 下 ,用 户 网 络 使 用 频次 
明显 增加 ,根据 2012 年 中 国 互联 网 络 信息 中 心 (CNN- 
IC)《 中 国手 机 网 民 上 网 行为 特点 ) 的 调查 ,72. 2% 
的 手机 网 民 每 天 至 少 通过 手机 上 网 一 次 ,其 中 , 近 6 成 
手机 网 民 每 天 使 用 手机 上 网 多 次 。 艾 瑞 咨 询 统计 的 
《2014 年 中 国 移动 互联 网 用 户 行为 研究 报告 2 显示 ， 
67% 的 手机 用 户 表示 “每 天 使 用 多 次 ”。 大 学 生 是 移 
动 互联 网 的 主要 用 户 群 体 之 一 ,一 方面 ,在 频繁 使 


因 索 维度 中 的 “0 信息 浏览 与“P 信息 搜索 ”信息 增益 
信 量 前 两 位 , 即 信息 偶遇 多 发 生 于 浏览 信息 时 与 信息 
多 汐 时 。 根 据 俞 旬 网 9 的 观点 ,一 次 信息 偶遇 会 经 历 
行为 -信息 获取 - 信息 需求 " 的 过 程 ,特定 信息 
情境 中 (信息 浏览 信息 搜索 .信息 交流 ) 意外 区 
《全息 ,从 而 引发 新 的 信息 需求 。 信 息 浏览 情境 下 ,用 
用 5 于 “目的 性 较 弱 ”, 甚 至 “无 目的 ”的 状态 ,对 于 结 
条 加 是 “ 低 预 期 ”, 甚至 “无 预期 ”, 这 种 行为 特征 恰 与 
信 乱 偶遇 的 特征 相 契 合 。 此 外 ,信息 浏览 一 般 还 具有 
时 何故 力 小 的 特征 "" ,根据 本 研究 结果 ,“Y 时 间 充 
感 怨 是 与 发 生 信 息 偶遇 比较 相关 的 因素 之 一 (1 = 
0. JE0 0, 排 第 7 位 ) ,因此 ,在 信息 浏览 中 更 易 发 生 信 
息 狠 遇 。 信 息 搜索 往往 处 于 某 种 任务 情境 ,有 和 较 明 确 
的 信息 需求 ,时 间 相对 不 充足 ,已 有 研究 多 认为 此 种 情 
境 下 不 易 发 生 信息 偶遇 。 然 而 ,在 信息 搜索 过 程 中 ,以 
超 链接 方式 进行 组 织 的 海量 的 、 高 密度 的 网 络 资源 会 
促使 信息 偶遇 发 生 ,加 之 目前 各 种 搜索 引擎 的 个 性 化 
设置 与 推荐 ,无 疑 会 提高 信息 偶遇 发 生 的 几率 。 需 要 
注意 的 是 ,信息 时 代 下 大 学 生 对 信息 的 需求 呈现 快速 
增加 的 态势 ,无 论 学 习 、 科 研 ,就业 及 日 常 行为 , 均 明显 


一 、 


用 网 络 的 过 程 中 ,动态 新 闻 推送 信息 交流 信息 等 持 
续 为 用 户 提供 最 新 信息 ,这 本 身 就 可 以 激发 信息 偶遇 
的 产生 ; 另 一 方面 ,移动 互联 网 下 ,用 户 “ 无 目的 "的 碎 
片 化 行为 以 及 信息 交流 意愿 强烈 等 特征 也 易于 激发 信 
息 偶遇 。 

5.3.3 ”信息 用 户 维度 ”研究 结果 显示 ,在 个 人 相关 的 
诸多 因素 中 ,“X 信息 偶遇 经 历 “Bd 熟练 使 用 搜索 引 
擎 "两 个 变量 与 发 生 信息 偶遇 的 相关 性 较 高 。 其 中 ， 
“X 信息 偶遇 经 历 ” 所 指 的 个 人 曾经 的 信息 偶遇 经 历 对 
发 生 信息 偶遇 有 着 较 强 的 影响 (1=0.0.122 3, 排 第 4 
位 )。 根 据 A. E. Foster 等 的 研究 ,信息 偶遇 不 但 可 以 
强化 个 人 对 问题 的 理解 ,修正 用 户 对 初始 问题 的 理解 ， 
还 可 以 将 用 户 引 入 一 个 新 的 方向 ,找到 解决 问题 的 新 
思路  。 这 种 信息 旅程 的 转向 ,能 产生 积极 的 行动 效 
果 与 积极 的 情绪 体验 。 意 外 获取 信息 解决 问题 , 找 
到 新 的 思路 对 于 用 户 来 说 是 宝贵 的 信息 获取 经 验 与 兴 
奋 的 情绪 体验 ,积极 地 影响 着 下 一 次 信息 偶遇 的 发 生 。 
“Bd 熟练 使 用 搜索 引擎" 代表 着 用 户 较 高 的 个 人 信息 
素养 ,有 着 较 强 的 信息 意识 与 信息 能 力 。 一 般 情况 下 ， 
对 信息 的 敏感 度 相对 较 高 ,经常 使 用 网 络 熟练 掌握 常 


Nop 


= 


依赖 于 各 种 外 部 及 互联 网 信息 ,尤其 是 当前 移动 互联 
网 环境 下 ,移动 终端 的 普及 使 得 大 学 生 获 取 各 类 信息 
更 加 便捷 。 信 息 浏 览 与 信息 搜索 是 大 学 生 和 群体 获 取信 
息 的 主要 途径 > ,培养 在 这 两 种 情境 下 的 信息 偶遇 能 
力 对 于 提高 大 学 生 的 信息 素养 有 着 重要 意义 。 

5.3.2 网 络 环境 维度 ”本 研究 中 ,关于 网 络 环境 设计 
了 两 个 问题 ,分别 是 “手机 上 网 ”与 “电脑 上 网 "对 信息 
偶遇 发 生 的 影响 。 其 中 手机 上 网 代表 移动 互联 网 环 
境 ,电脑 上 网 代表 传统 互联 网 环境 。 结 果 显 示 ，T 手 
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用 工具 ,可 以 轻松 处 理 信 息 相关 情境 的 用 户 ,更 易 发 生 
信息 偶遇 。 另 一 方面 ,熟练 使 用 搜索 引擎 更 易 掌握 
使 用 技巧 ,利用 个 性 化 推荐 等 功能 获取 大 量 信息 ,从 而 
激发 信息 偶遇 。 与 主动 信息 获取 相同 ,信息 偶遇 能 
也 可 以 进行 培养 与 提高 ,可 以 利用 现行 信息 素养 实践 
模型 ,在 实践 的 各 个 环节 中 ,引导 培养 大 学 生 的 信息 偶 
遇 意识 .激发 其 信息 偶遇 的 能 力 ”” 。 

5.3.4 偶遇 信息 维度 “ 排 在 前 10 位 的 相关 因素 中 ， 
有 “N 偶遇 信息 是 兴趣 相关 ”L 信息 与 过 去 问题 相关 ” 


田 梅 , 朱 学 芳 . 基于 支持 向 量 机 的 大 学 生 网 络 信息 偶遇 


ChinaXiv 合 作 期 刊 


影响 因素 研究 [J]. 图 书 情报 工作 ,2018 ,62(8) :84 - 92. 


“J 偶遇 信息 非常 有 用 ”“M 信息 与 将 来 问题 相关 ”4 个 
变量 属于 偶遇 信息 维度 。 其 中 ,N 变量 代表 偶遇 信息 
是 兴趣 相关 ,本 变量 代表 偶遇 信息 是 问题 相关 。 根 据 研 
究 结 果 ,“N 偶遇 信息 是 兴趣 相关 ”对 于 发 生 信息 偶遇 
更 为 相关 (I=0.0.113 0 , 排 第 5 位 ) 。 兴 趣 相 关 的 信息 
偶遇 多 发 生 于 无 任务 浏览 情境 下 ,问题 相关 的 信息 偶 
遇 多 发 生 于 有 任务 搜索 情境 下 ” 。 在 目前 Web2.0 环 
境 下 ,大 学 生 群 体 是 各 类 社交 媒体 软件 的 主要 用 户 人 
群 之 一 ,利用 碎片 化 时 间 频 繁 使 用 网 络 ,以 “碎片 化 ” 
行为 被 动 获取 着 各 类 平台 推送 的 或 者 交流 而 来 的 “ 碎 
片 化 "信息 ,这 种 情况 下 ,被 调查 的 大 学 生 群 体 认为 他 
们 偶遇 的 信息 是 “兴趣 相关 ”多 于 “问题 相关 ”。 研 究 
中 ,与 问题 相关 的 因素 又 分 为 了 “过 去 问题 相关 ”“ 目 
前 和 题 相关 ”与 将 来 问题 相关 ” ,分 别 对 应 着 变 
LE 与 M 变量 。 结 果 显示 ,“ ee 
来 辣 题 相关 ”的 信息 更 易 激发 信息 偶遇 。 其 中 ,“L 信 
同时 过 去 问题 相关 " 排 在 第 6 位 (1=0.0.111 8)。 在 
避 台 与 生活 中 ,往往 会 有 一 些 当 时 解决 不 了 的 问题 ,而 
这 由 问题 会 作为 “背景 问题 "存储 于 用 户 的 潜意识 
中 ,被动 获取 的 信息 与 “背景 问题 "发 生 关联 , 即 会 


要 


和 


信 息 偶 遇 


本 文 针 对 大 学 生 群 体 ,围绕 “影响 大 学 生 网 络 信息 
贷 的 影响 因素 ”以 及 “影响 信息 偶遇 的 敏感 因素 ”及 
“贡生 知 为 数据 进行 信息 偶遇 频次 特点 预测 ”3 个 核 
心 侣 题 进行 了 实证 研究 ,从 机 器 学 习 的 角度 出 发 ,构建 
1® ee 影响 因素 模型 和 行为 预测 模型 ,并 对 
结果 进行 理论 阐释 与 分 析 。 
se 信息 偶遇 能 力 是 大 学 生 信息 素 
We 信息 偶遇 理论 研究 的 最 终 目的 是 
应 用 ,基于 这 一 认识 ,本 研究 将 机 器 学 习 引 和 信息 偶遇 
ee 偶遇 实用 化 的 有 益 尝 试 。 一 方面 ， 
可 有 针对 性 地 指导 大 学 生 提 升 信息 素养 ,提高 自主 学 习 
能 力 ; 男 一 方面 ,本 研究 的 结果 可 移植 到 不 同人 群 的 信 
息 行为 的 特点 分 析 和 预测 中 ,例如 ,高 校 科 研 工 作者 的 
信息 偶遇 能 力 对 科研 工作 的 提升 效果 分 析 等 ;同时 ,本 
研究 也 能 为 各 类 移动 终端 应 用 服务 商 和 软件 开发 商 提 
供 创 新 依据 和 理论 指导 ,例如 ,预测 用 户 在 使 用 社交 媒 
行为 ,可 为 用 户 推荐 质量 更 高 的 推送 信 
息 ,这 有 利于 进一步 改进 产品 设计 ,提高 服务 质量 。 
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Study of Network Information Encountering Influence Factors for 
Undergraduate Group Based on Support Vector Machine 
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“School of information management, Nanjing University, Nanjing 210023 

Abstract: [ Purpose/significance | In the current Web 2.0 network environment, information encountering is one 
important method to get information for the undergraduate group. This study is of important significance of improving the a- 
bility of information encountering and information literacy for university students. [ Method/process | Aiming at university 
students, this paper studies the sensitive influence factors of information encountering in the environment of network. Spe- 
cifically speaking, this paper uses information gain to analyze the correlation between each influence factor and information 
encountering frequency, and then builds the model of sensitive influence factor. Furthermore, support vector machine 
(SVM) is introduced to establish the prediction model for information encountering frequency. [ Result/conclusion | 
There exists 10 most sensitive influence factors for information encountering which are located in four dimensions including 
information user, encountering information, network environment and situation factors. The predicted classification accura- 
cy can reach 82.96% , which demonstrates SVM works well to predict information encountering frequency. 
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